数据湖vs数据仓库vs数据集市
数据湖、数据仓库、数据集市,这三个概念都是干什么的,有什么区别呢?这边文章可以为你解释下他们的异同。
数据湖数据湖里存放了公司来自各个业务系统的数据,包括结构化数据、非结构化数据(比如日志、邮件、音频等),这些数据完全没有经过清洗,原始系统什么样,在数据湖中就怎样存储。
什么时候使用数据湖
公司业务数据非常多,需要廉价的存储来存储所有的数据。
公司非常想挖掘现有和历史的业务数据,但是还没有详细的规划如何分析。所以需要先保存数据,在考虑以后的分析,毕竟对于很多公司来说,数据就是巨大的资产。
数据仓库汇总有可能有很多维度数据的统计分析结果,取百家之长(各个数据源的数据),成就自己的一方天地(规划各种业务域的模型,指标)。
关于数据仓库的详细介绍可参考之前的一篇文章:数据分析师应该了解的数据仓库(1)
数据湖和数据仓库如何选择如果您目前已经拥有完善的数据仓库,当然不建议删除它重新开始。但是,建议你在建设数据仓库的同时,实施一个数据湖。数据仓库可以继续照常运行,开始用新的数据源填充数据湖,可以将其用于收集所有业务系统数据,然后进行向下建设,沉淀部分数据到数据仓库。
关于数据湖和数据仓库的区别可以参考上一篇文章:数据分析师应该了解的数据湖
数据集市简单来说,数据集市是数据仓库的一个子部分,专门为特定部门/业务功能设计和构建的。
为什么选择数据集市
数据安全性:由于数据集市仅包含特定于该部门的数据,因此可以确保没有物理上的意外数据访问(比如财务数据等)。
高性能:由于每个数据集市仅用于特定部门,因此通过数据集市性能负载在部门内部得到了很好的管理,不会影响其他集市的分析工作。
数据集市类型
从属数据集市,从现有数据仓库构建从属数据集市。采用自上而下的方法,将所有业务数据存储在一个集中的数据集市,然后在根据需求进行分析。
独立数据集市,独立数据集市是一个独立系统,无需使用数据仓库即可创建,并且专注于一个业务功能。数据从内部或外部数据源中获取,经过精炼,然后加载到数据集市,直到业务分析结束为止。
混合数据集市,混合数据集市集成了来自当前数据仓库和其他运营源系统的数据。它结合自下而上方法,帮助企业集成数据集市。
所以,对于大型企业来说,数据湖,数据仓库,数据集市都是共存的,针对不同的用户和部分使用。
拓展:
你们公司是如何保存使用数据的?
数据集市你认为有必要建立吗?